杀入AI制药的互联网巨头,只有百度是认真的
2020年下半年,几家互联网巨头像是约定好似的,一起涌进AI制药赛道。
腾讯、华为相继在当年的世界互联网大会上官宣了自己的AI医药平台云深智药和华为云EIhealth。
两个多月后,李彦宏亲自挂帅,牵头成立了AI生命健康平台“百图生科”,加速深度学习算法在新药研发和精准诊疗方面的应用。阿里巴巴和字节跳动也动作频频。
互联网巨头的加入,无疑为这个现象级赛道再添一把大火,看似鲶鱼闯入,风雨欲来。
两年时间过去,似乎只有百图生科在为AI制药大声摇旗呐喊。
能够被互联网巨头看上并入局的,一般来说该赛道都会有利益可图或者有充足的想象空间。
以往互联网公司进军药物研发,几乎是难以想象的事情。
医药行业高风险、行业发展缓慢的特性看似与烧钱换增长的互联网八字不和,科技公司大多选择边缘赛道。有电商基因的基本都去卖药了,比如京东健康和阿里健康;有流量的则做起了医疗科普、互联网医院等。
AI辅助药物研发的技术交叉特性,为科技公司以AI端切入药物研发撕开了一道口子,或许一些企业只是试水,对主要玩家不构成大的威胁。
像百度这样一只脚跨过太平洋真正做药的并不多,并且还挺像那么回事儿的。
首先百图生科是一家独立的公司,它并没有被归类为“腾讯健康”或者“华为云”等大业务范畴下,由李彦宏个人发起且公司独立运营,有着清晰的股权架构。
成立一年后,百图生科被单独拿出来融资,首轮就获投1亿美元,领投方为GGV资本,跟投方包括百度、君联资本、蓝驰创投、真知资本、襄禾资本。
同时,百图生科将眼光聚焦于免疫领域,围绕多种肿瘤免疫和自身免疫疾病建立了30余个自研项目,及多个联合开发项目,目前都在临床前研究阶段。
根据公司此前在苏州建设抗体研发中心与发布ImmuBot免疫机器人,主要方向应该是数据量更少、开发难度更大的大分子药物。
无论国内还是国外,互联网公司自己搭建药物研发管线的都不算多,绝大多数都选择与药企合作并提供技术支持,百图生科确实显得诚意满满。
但互联网公司的基因决定了他们不会像AI biotech一样融资拿钱做药,雄厚的背景和技术沉淀下,讲故事和做平台几乎是必然。
壕气首先体现在抢人方面。
近两年来,百图生科宣布百万领军人计划,邀请100位生物计算人才加入公司,年薪分为三个档次,100万美元/年、100万人民币/年和100万人民币两年。
各种吸引力之下,百图生科囊括了著名机器学习大牛宋乐(现为百图生科AI首席科学官),吉利德前全球执行总监蒋昭实(现为靶点发现副总裁)、以及资深生物化学专家容晓军(现为发现生物学副总裁)等高管,以及一众顶尖院校毕业的博士。
除此以外,百图生科还有强大的科学顾问团队,包括R语言发明人Robert Gentleman、吉利德前全球副总裁Michael Wulfsohn,还有国内多位免疫学的权威专家董晨院士、刘芝华教授、苏冰教授等。
人才以外,百图生科的重资产投入也不小。
公司在北京、苏州和硅谷累计建设了上万平米的研发实验室,里面配备了大规模高通量自动化验证实验室、CLIA 标准组学实验室、微流控芯片刻蚀/光刻实验室、光学技术实验室、CRISPR 系统、类器官系统、微流控系统、计算光学系统等,还和百度建立全球最大的生物超算中心。
这几乎囊括了当下的前沿实验技术,又贵又新,行业能够与之比较的也就是上市AI制药公司Relay。
要知道部分AI制药公司自己都缺乏完善的湿实验室,选择和CRO合作研发;而百图生科的研发中心规模与一家中等CRO相当。
当然,百图生科是不打算做CRO的,毕竟这对互联网公司而言不太酷。
这些设备最重要的通过高通量实验来配合产生数据闭环,最终目的是构建百图生科的千亿参数免疫大模型,解码免疫系统。
大规模预训练模型在人工智能界并不稀奇,2020年OpenAI发布的预训练语言大模型GPT-3震惊了业界,两年时间就将参数规模扩大10倍,达到1750亿个参数,打破了人类有史以来创建的最大神经网络纪录。
预训练大模型是指在大规模宽泛数据上进行训练的基础模型。它抓住了深度学习算法数据越多模型鲁棒性越强的基础特点,对模型进行暴力地“数据投喂”。
经过大规模数据的预训练后对下游工业界意义非凡,经过预训练+微调的方式模型可以产生多种应用,例如GPT-3可以用来聊天、生成文本、翻译、做笔记等各种与文字相关的工作。
生物医药界很少有大规模的预训练模型,即使是前不久Meta AI发布的ESMFold,号称迄今为止最大的蛋白质语言模型,已经预测超6亿种蛋白质,也仅仅只有150个亿参数。
而百图生科想要构建的预训练模型能部分模拟免疫系统功能,形成一个多模态跨尺度的体系,从蛋白质序列、蛋白质相互作用、细胞系统等多个尺度出发,为今后批量化地进行靶点发现和制造药物奠定基础。
不得不说这是一个野心勃勃的计划。
无论是千亿规模的AI可用的参数,还是建模需要调动的多项计算资源(包括大规模分布式训练、并行计算、软硬件协同优化等),已经不是一家普通AI初创能够完成的事,跨国药企或许有资源,但其基因也决定了他们很难自己牵头开发大模型。
百图生科真的能够如愿吗?
这似乎与行业的某种声音背道而驰:部分公司在利用小数据和宽数据去处理“重要且可以通过计算解决的问题”,通过一个个小突破实现AI药物的渐进式发展。
毕竟,模拟人体免疫系统还是太超前了。
多尺度建模带来的主要成就和改进没有随着计算资源的增加而变化。它一方面基于AI从高质量的生物和化学数据得出的因果推论,即将数据转化为知识的能力;但另一方面药物研发又是确定性和偶然性并行的。
如今人体复杂的免疫系统有太多未解之谜,很多疾病形成的原因和运作机理尚且都不清楚,连家底深厚的跨国大药企也经常折戟。AI又如何做到有的放矢地得到高质量见解呢?转化效率或许堪忧。
当然,罗马并非一日建成,此前百度已经在其他行业有建设预训练大模型的经验。如果这个免疫大模型能够成功并输送给行业使用,或将进一步降低运用AI进行药物研发的门槛,实现批量化研发药物的能力。
为此百图生科发布了“免疫图谱卓越计划”,计划投资10亿元与合作伙伴共同绘制免疫图谱,探寻癌症、自免等疾病的复杂规律,构建万亿关系的多组学免疫图谱,这些知识图谱将用于建设大规模预训练模型。
回看国内切入AI药物研发的科技公司,目前只有百图生科走得最深最远。
这似乎与企业理念和布局息息相关。
华为云Ehealth主要围绕其云计算业务展开,广泛和AI医疗的多个场景建立联系,例如疾病基因早期筛查、疾病辅助诊疗、药物研发等环节,瞄准的是医疗大数据和智能化的“上云”需求。
正如此前任正非承诺不造电动汽车,而是为企业提供核心解决方案(俗称卖铲子)。
腾讯的云深智药官宣后也没有大动作,目前主要依托腾讯AI lab联合高校进行前沿研究,以及和少量的和药企进行试水合作。
此前腾讯健康的智慧医药开放日,云深智药被打包进入了其医药全价值链数字化,成为腾讯健康广泛布局的一部分,在很大程度上也是基于云计算。
而百图生科几乎很少和百度的智能云业务联系,将自己定位为造药新势力,对标的是基因泰克,想用计算技术革新医药研发的意图很明显。
百度重金押注生物计算,也与此前深度布局人工智能、自动驾驶的战略有异曲同工之处,对自身技术有足够的信心,也愿意为AI+生物医药的前景买单。
当下,绝大多数AI制药初创都在努力推进管线,或拿下大药企合作,完善自身平台,百图生科做的事情的确有些不同,运用自身的影响力打造计算免疫生态。
智药局注意到,当前百图生科的合作对象大多为初创公司和科研机构,包括各类组学和免疫公司,较少有国内外大药企的身影。大型药企的主流选择仍是和多家AI制药初创公司合作,落实到具体的药物研发痛点。
不过,在很多医药企业还对AI药物研发抱有怀疑时,除开超前的理念和互联网黑话,能有这样一家企业从AI的角度为药物研发和生物计算注入活水,并愿意花重金投入,其实比较难得。
过去一年百图生科的团队已经从30人扩充到300人左右,增长非常迅速。而在成立之初,李彦宏似乎已经做好了长久地、持续地为百图生科输送资源。
但医药研发不是谁口号喊得响亮就能笑到最后。百图生科也不过成立两年,一切才刚刚开始,是一地鸡毛,还是一匹黑马,有待时间的验证。
参考来源:
百图生科官网、微信公众号
https://mp.weixin.qq.com/s/NxP-Y52IFqER-x4mgiv5PQ
—The End—
推荐阅读